SEER 数据库是由美国国立癌症研究所于 1973 年建立,是美国常用的癌症数据库,里面包括各式各样的肿瘤类型,如肺癌、乳腺癌、胃癌、结直肠癌、前列腺癌等等。主要提供了各式各样的临床资料,如性别、年龄、TNM 分期等,收集过临床数据的小伙伴都懂得收集数据是一件多么费时且痛苦的事。在详细介绍之前,放上一组数据让大家直观感受下 SEER 数据库的魅力:在 Web of Science 中检索标题为「SEER」的近五年文章,总共检索出 1699 篇,图中可以看出,每年发表的数量都在增加,发表最多的前五名作者中有四个是中国人。发表的国家里,中国排名第二,甩了第三几条街。大家懂了吧,且白嫖且珍惜!既然 SEER 数据库这么香,我该怎么通过它发表文章呢?主要包括以下五步:进入官网,第一步点击「SEER Data&Software」:第二步点击「Accessing the Data」:信息填写好后点击「Sumbit」,之后 SEER 会发一封邮件到你注册的邮箱,点击链接:点击完链接后会出现上面这份文件,最好还是打印出来,手写填上英文名,日期,SEER ID(SEER 会提供给你的)。然后扫描或者拍照发到 seerfax@imsweb.com。邮件的内容:第一句感激人家,第二句告诉对方你已经把文件发给他们了,第三句希望对方早点回复。然后再感谢一波。一般第二天,就会收到 SEER 的回信,里面就有账号和密码了。点击申请,SEER 会发送软件的下载地址到邮箱,如下:箭头所示的像表格一样的图案叫做「Case Listing Session」,里面显示了每个肿瘤患者的个人信息(如性别、年龄、TNM 分期等),常规发表 SEER 数据库相关的文章,都是用这部分的数据。将其导出,就可以用其他软件进行进一步分析了,比如 K-M 分析、Cox 回归分析,再进一步开发临床预测模型等等。「Case Listing Session」前面的 6 个按钮,一般没什么特别大用处。这里就不展开介绍了。「Data」指的是你选择的是哪个数据库。因为软件每年都会更新,所以会有好多个文件,一般选择最上面的那个,也就是数字 1 标识的。
数字 2 标识的为具有放化疗信息的文件(PS:这个需要额外申请,由于篇幅限制,这里就不展开说明了。)接下来演示标识 1。「Selection」指的是你的纳入排除标准。如我们纳入 2010-2015 年的肺癌病人。点击 1,进去具体选择界面,2 表示的是诊断年份,3 表示的是肿瘤部位,然后选择「lung and bronchus」。「Table」指的是导出的数据要呈现哪些内容。可选择的内容有很多,根据文章需要的变量进行选择。以下依次展示的是显示性别、诊断年份、肿瘤部位、生存时间、生存状态。(PS:SEER 里的变量太多,这里无法详细展开说明)。「Output」,指的是输出文件的文件名。可以随便命名,如「A」,点击下图的闪电按钮,即可输出想要的文件。字典功能可以提供部分变量的含义,会提供相关的链接。具体如何使用这里暂不展开。输出表格如上,个人喜欢直接「Ctrl+A」全选,然后「Ctrl+C」,「Ctrl+V」直接黏贴到 Excel 里。常规的分析一般包括 t 检验、卡方检验、单因素及多因素 Cox 回归分析,K-M 分析等等。如果是临床预测模型,还需要 Nomogram 图、C 指数等。总的来说,这是一篇关于 SEER 数据库的扫盲文,适用于小白选手,希望对大家有所帮助。